Interpretowalność sieci

Model VGG16

VGG16 jest głęboką siecią konwolucyjną służącą do klasyfikacji kolorowych zdjęć ze zbioru ImageNet. Sieć ma na celu rozpoznanie obiektu przedstawionego na zdjęciu i przypisaniu mu jednego z tysiąca labeli. Jest on głównie wykorzystywany wraz z wcześniej trenowanymi wagami, pozwalając na szybkie wykorzystanie do analizy zdjęć.

Źródło: https://neurohive.io/en/popular-networks/vgg16/

Analizowane zdjęcia

Będziemy analizować wyniki sieci na podstawie trzech zdjęć - jasnego kubka na ciemnym tle, na jasnym tle oraz na jasnym tle ale obróconym tak, że nie widać rączki. Dla porównania weźmiemy także pod uwagę zdjęcie z filtrem oleju.
Dla pierwszego ze zdjęć widzimy dużą pewność że jest to właśnie kubek do kawy. Dla drugiego zdjecia pewność ta jest mniejsza, ale nadal bardzo duża. Natomiast trzecie zdjęcie klasyfikowane jest jak filtr oleju, z kubkiem będącym drugą proponowaną klasą. W ostatnim zdjęciu należy zwrócić uwagę na to, że model zwraca klasa z praktycznie 100% pewnością. Zatem niewykluczone, że to zdjęcie było wykorzystywane podczas treningu.

Grad-CAM

Źródło: https://www.kaggle.com/gowrishankarin/gradcam-model-interpretability-vgg16-xception

W przypadku pierwszych dwóch zdjęć widać duże znaczenie rączki w klasyfikacji obiektu. W trzecim zdjęciu rączka ta nie jest widoczna na zdjęciu, dlatego model miał większy problem z poprawnym skategoryzowaniem tego zdjęcia.

Widać tutaj także że w przypadku filtru najważniejszą częścią dla sieci jest górna powierzchnia. W przypadku zdjęcia trzeciego, nie tylko kształt tej powierzchni jest podobny (nie uwzględniając dodatkowych elementów w środku), ale także kąt pod którym zdjęcie było robione jest podobny do tego ze zdjęcia czwartego. To może tłumaczyć błędną klasyfikację jako filtr oleju.

Lime

Na tej analizie obserwujemy to bardzo podobne zachowanie jak dla grad-CAM. W pierwszych dwóch zdjęciach najważniejszą cechą dla modelu jest rączka od kubka. Na zdjęciu trzecim nie jest ona widoczna, więc model skupia się na cylindrycznym kształcie obiektu, w szczególności analizując górną powierzchnie.

Jednak najciekawszy rezultat ukazał się dla zdjęcia czwartego. W przeciwieństwie do analizy grad-CAM, tutaj widzimy większe skupienie się na przedniej części obiektu. W przypadku analizy lime trudniej jest znaleźć uzasadnienie, czemu zdjęcie trzecie zostało zklasyfikowane jako filtr oleju, jednak nadal można zakładać że jest to spowodowane podobnym kształtem i kątem pod którym zdjęcie zostało zrobione